Le but du Projet du 2e semestre est de traiter le corpus des fils RSS du journal Le Monde automatiquement.
Pour cela, à partir d'un script perl fourni obligeamment par nos GP (Gentils Professeurs) qui permet de parcourir l'arborescence d'un corpus réduit (le mois de janvier 2008), il faut récupérer le titre et la description des fils (aux formats txt et xml, en utf8).
Voilà le script et ses 344 lignes (en .txt pour pouvoir l'afficher dans le navigateur et non en .pl).
Et la Version n°2.
Pour récupérer automatiquement la liste des rubriques (il y en a 15 en tout), nous avons écrit :
Pour ne pas avoir des fichiers partout, il vaut mieux préparer un beau bureau avec des dossiers PERLV2/SORTIE_XML et PERLV2/SORTIE_TXT ; même chose pour PERLV1.
Le fichier xml est en iso latin et le fichier texte en utf-8.
Le problème de codage est assez facile à traiter à l'aide du module perl (installé grâce à l'utilitaire ppm Merci S. Fleury !) UNICODE::String, on peut transformer le iso-8859-1 en gentil UTF8 sans plus de difficultés et voilà donc le script revisité : paf2.pl.
Autre module XML::RSS et le code se réduit par miracle. Il n'y a plus que quelques lignes qui trouvent le contenu du fil RSS dans les balises demandées, plus besoin d'expressions régulières, de suppressions de retour à la ligne. Simple, efficace et rapide à mettre en œuvre.
Voici le deuxième script pafrss.pl.En fin de traitement, on obtient pour chaque rubrique un tableau qui reprend le titre de chaque fil RSS suivi de son résumé comme dans l'exemple sur la rubrique ALAUNE qui se trouve sous ce fichier xml qui appelle la feuille de style xsl qui se cache ici.